Блог сайта «Ленусик»

Основная статья: Большие данные

новые лучшие обсуждаемые мои

Аналитика Big Data: о новом факультете GeekUniversity

GeekUniversity запустил факультет аналитики Big Data (больших данных), и мы спешим рассказать о нем.

Наш сегодняшний собеседник — Сергей Ширкин — декан факультета и Data Scientist с опытом работы в таких компаниях, как Сбербанк, Росбанк, бюро кредитной истории Equifax. Он занимался автоматизацией финансовых технологий, строил финансовые модели на основе машинного обучения, прогнозировал просмотры рекламы с применением методов ИИ. Сейчас Сергей работает в компании Dentsu Aegis Network Russia, преподает в GeekBrains, возглавляет факультет искусственного интеллекта и новый факультет аналитики больших данных в GeekUniversity.

— Сергей, привет! Расскажи, пожалуйста, почему из направления Data Science в GeekUniversity выделился факультет аналитики Big Data.

— Привет! Дело в том, что крупным компаниям нужны специалисты, которые умеют работать не просто с искусственным интеллектом, но и с большими объемами данных. С объемами, которые не обработаешь на обычном офисном компьютере или сервере: тут требуются другие мощности, а главное — алгоритмы распределенных вычислений.

Следовательно, нужны и специалисты, с такими алгоритмами знакомые.

Системы обработки больших данных — это высоконагруженные системы. Они нуждаются в осторожной грамотной эксплуатации. Не все специалисты, которые работают с искусственным интеллектом, хотят заниматься большими данными и сталкиваться с трудностями на этом пути. Тем более, для многих аналитических задач большие данные не нужны. Миллионы и десятки миллионов наблюдений, зафиксированных в базе, — это еще не Big Data. Здесь мы имеем дело с малыми и средними данными.

Специалист Data Science обычно работает с датасетом в несколько гигабайт. А большие данные измеряются в терабайтах и даже петабайтах. Для их обработки нужны кластеры машин и такие технологии, как Hadoop, Spark.

— Насколько разных специалистов готовят факультеты искусственного интеллекта и анализа больших данных?

— У факультетов искусственного интеллекта и аналитики больших данных общий фундамент: и там и тут применяются статистика и машинное обучение. Но, когда у вас очень много данных, нужно знать специализированные библиотеки и технологии, прежде всего — экосферу Hadoop и парадигму MapReduce. Плюс понадобится технология Spark — более новая, чем MapReduce, и предназначенная для распределенных алгоритмов, в том числе для машинного обучения на больших данных.

— Учатся на обоих факультетах одинаково по времени?

— Да, по полтора года — три семестра. Но на факультете аналитики Big Data есть дополнительные курсы, на которых студенты знакомятся с инфраструктурой (теми же Hadoop и Spark), узнают особенности работы именно с большими данными.

— Получается, на факультете Big Data изучение аналитики глубже, а на Data Science — охват шире?

— Можно и так сказать. На факультете ИИ больше времени уделяется математике, компьютерному зрению, обработке естественного языка. Но, как я уже сказал, база одна.

— Приведи примеры задач, которые аналитики больших данных решают в разных сферах: в банках, торговле, IT, телекоме, логистике и транспорте, консалтинге.

— В банках можно в реальном времени анализировать транзакции и тут же строить сложные модели. Малые или средние данные можно было бы сначала агрегировать и обработать, а с большими часто приходится работать в реальном времени: анализировать миллиарды транзакций и реагировать на них.

У кого еще много данных? У операторов связи: они ежедневно получают информацию терабайтами, и для работы с ней нужны специальные инструменты. Мы можем посмотреть, сколько SMS человек отправляет в день, и предложить ему подходящий тариф. Это делается, чтобы не терять клиентов. Пользователей миллионы, они постоянно делают звонки, и в результате у оператора формируется, условно говоря, таблица с миллионами строк. Чтобы это обработать, нужен кластер Hadoop, Spark и так далее.

— С банками и операторами связи понятно. А другие примеры?

— В обработке Big Data может нуждаться сеть супермаркетов, которая делает свою рекомендательную систему.

Такая система составляет профиль клиента, где учитывает, какие покупки он делает. С ее помощью можно сообщать пользователю о подходящих акциях и скидках на интересные ему товары.

— Получается, аналитик не только обрабатывает данные постфактум, но пишет сценарии реагирования: как система будет отвечать на события?

— Можно и постфактум анализировать, но для работы с большими данными в любом случае нужно хорошо программировать. Потому что ты имеешь дело не с таблицей Excel, а с массивом, к которому без специальных инструментов не подступишься, — для его обработки нужны библиотеки на Python. И уже с их помощью ты можешь формировать отчеты, строить графики или выводить результаты еще в каком-то виде.

Главное — понимать, что у аналитика Big Data нет готового приложения, где можно что-то вычислить и получить результат нажатием одной кнопки.

— Python — это сейчас стандарт в области анализа больших данных?

— Да. В принципе, для этих задач можно использовать и Java, но по вакансиям в сфере аналитики данных видно, что работодатели в первую очередь требуют именно знание Python. Потому что под него больше популярных инструментов: библиотек для машинного обучения, просмотра данных и построения графиков.

Есть два подхода к анализу данных. Либо это Ad hoc — когда один раз смотришь нужный показатель на лету. Либо это система, которая работает и мониторит что-то ежедневно. Как правило, сначала аналитик делает множество запросов ad hoc, чтобы представить себе структуру данных и сориентироваться. А дальше он пишет приложение для регулярной работы с данными.

— Можно пример, который иллюстрирует эти два подхода?

— Допустим, ты анализируешь сообщения в Twitter. Ты можешь разово найти десять самых популярных твитов месяца и вывести на одну страницу. Либо ты создашь решение, которое будет каждый день анализировать посты и выявлять тенденции: смотреть, как меняется популярность бренда по месяцам, например. Владелец бренда сможет учитывать это при разработке рекламных кампаний.

Результаты анализа больших данных более репрезентативны, чем то, что дает опрос тысячи человек или фокус-группы. И обходится работа аналитика в итоге дешевле, чем регулярное проведение опросов.

А если система работает в режиме реального времени, анализировать данные можно мгновенно, что позволяет быстрее реагировать на ситуацию.

— Что такое предиктивная аналитика? Из названия ясно, что она связана с прогнозированием. Но как именно это работает?

— У нас есть данные, на основе которых мы строим прогноз: либо общий (пытаемся уловить тенденции), либо частный.

Пример частного прогноза в финансовой сфере — кредитный скоринг. Банки присваивают каждому клиенту балл «благонадежности»: насколько вероятно, что он вернет кредит. Для этого анализируют его историю поведения: какие кредиты брал, как отдавал, допускал ли просрочки по выплатам. Представь себе число клиентов крупного банка, и по каждому надо проанализировать множество транзакций.

— У транспортных и логистических компаний тоже есть большие данные. Какие решения нужны в этой сфере? Прогнозирование дорожной ситуации в конкретное время в конкретном месте?

— Есть сервис «Яндекс.Пробки», да. Он строит прогнозы, в том числе на основе прошлых данных по разным участкам дороги. Но я сейчас другой пример вспомнил.

Вдоль шоссе висят щиты-экраны, на которых можно показывать любые рекламные заставки. И есть программа, которая отслеживает номера телефонов в радиусе ста метров, например. То есть система знает, кто едет по шоссе.

Дальше она анализирует связанную с этими номерами информацию: историю покупок, посещения сайтов и интернет-магазинов. Быстрый подсчет позволяет выводить на щиты рекламу, более актуальную для проезжающей в данный момент аудитории.

— А откуда система берет информацию по телефонам, тем более с привязкой к магазинам и сайтам? Для этого нужно работать с какими-то специальными базами, магазинами данных?

— Интернет-сервисы обмениваются обезличенными данными в рамках закона. Системе управления рекламными щитами не нужны ваши имена и фамилии — ей достаточно знать ID, привязанный к SIM-карте. И она может получать от партнерских сервисов информацию по такому абстрактному пользователю. Купит ли владелец сервиса эти данные или обменяет «бартером» — второй вопрос. Это сложная тема, связанная с юридическими моментами, но в принципе организации у нас имеют право обмениваться неперсонифицированными данными.

— Как выглядит карьерная лестница аналитика данных? Какие в этой сфере перспективы развития?

— Рядовой аналитик вырастает в тимлида — руководителя отдела или его подразделения. Главу отдела аналитики зачастую называют директором направления R&D (Research and Development) или отдела Data Science.

Можно стать начальником аналитического департамента или управления, если такие подразделения в компании есть. Плюс, естественно, есть градация Junior, Middle, Senior.

— Какие проекты сделают студенты за время обучения? На странице факультета программа обучения есть, но интересно, как она будет раскрываться в реальных проектах.

— Из того, что уже утверждено, могу назвать четыре проекта:

Предсказание цены на недвижимость (курс «Python для Data Science», первая четверть).
Прогнозирование оттока клиентов сотового оператора (курс «BigData. Введение в экосистему Hadoop», вторая четверть).
Построение модели кредитного скоринга для банка (курс «Машинное обучение. Часть 1», четвертая четверть).
Рекомендательная система для интернет-магазина (курс «Машинное обучение. Часть 2», четвертая четверть).

— Про модель кредитного скоринга, телеком и рекомендательные системы мы уже говорили, а вот предсказание цены на недвижимость — это как будет выглядеть? Берется массив данных за некий период и постфактум анализируется?

— Берем квартиры за определенный период времени. Известны их характеристики: метраж, этажность, количество комнат, местоположение дома, экология в районе и так далее. Строим модель предсказания цен — и после этого для других квартир можем в автоматическом режиме вычислять наиболее вероятную стоимость.

— Для проектов готовые большие данные студентам предоставят?

— Да, студенты будут работать с готовыми датасетами.

— Сергей, спасибо, что рассказал о факультете и о работе аналитика Big Data. Я наконец поняла, чем на практике эта специальность отличается от смежных. Надеюсь, читатели тоже теперь лучше представляют себе профессию, о которой мы говорили.

Пройти обучение

15 май 19, 16:26

0 0

Большие данные и умные города: как подготовиться к будущему?

Это перевод статьи Big Data & Smart Cities: How can we prepare for them? Автор оригинала, Александр Гонфалоньери (Alexandre Gonfalonieri), пишет об ИИ, инновационных технологиях для бизнеса и общества.

Каждую неделю в города перебираются 1,3 миллиона человек, и можно ожидать, что к 2040 году 65 % населения мира станет городским. Причем 90 % роста численности горожан придется на страны Азии и Африки.

Последние несколько десятилетий эксперты пытаются повысить качество жизни в городах разными способами: от ввода платы за проезд по зонам с перегруженным движением до популяризации электровелосипедов (e-bikes).

Разговоров об умных городах много, но что стоит за этим понятием?

Умный город — тот, где с помощью передовых технологий расширен перечень доступных жителю услуг и оптимизирован каждый аспект городских мероприятий.

Какова роль больших данных в этой формуле?

Представьте: дисплей на приборной панели вашего автомобиля показывает предупреждение о том, что из-за погодных условий добраться до работы привычным путем будет трудно. Дальше программа перестраивает маршрут на основе показателей, которые отслеживает в реальном времени.

Вот вы въехали на крытую автостоянку, и бортовой компьютер уже подсказывает свободное парковочное место. При этом он учитывает, откуда вам будет ближе идти к работе, исходя из статистики предыдущих поездок.

Такой подход уже не будущее, а реальность. Большие данные (Big Data), интернет вещей (IoT) и распределенные датчики интенсивно внедряются в мегаполисах для реализации того, что многие называют городом будущего.

Это проявляется и в развертывании систем коммуникации: локальный fiber, муниципальный Wi-Fi, специализированные приложения для конкретных задач (умные парковки, уличное освещение, вывоз и переработка отходов).

В нескольких крупных городах мира уже выбрали подход, при котором во главе угла не конкретные приложения, а данные как связующий элемент.

Данные — кровь, которая бежит по венам умного города.

Общий фундамент

Чтобы стать умными, города должны отвечать одному общему требованию: собирать достоверную информацию (с датчиков), на основе которой можно вырабатывать решения на долгосрочную перспективу. Потому что данные — золото нашего времени.

Если встроить датчики в городскую инфраструктуру и создать новые точки сбора данных — в том числе от горожан с их мобильными устройствами, — администрация умного города сможет анализировать большие данные, чтобы более точно отслеживать и прогнозировать происходящее.

Пример датчика, полезного в управлении городом

Большие данные — богатый источник возможностей для развития городских сервисов. Упрощенно говоря, Big Data — это огромный массив данных, анализ которого позволяет бизнесу принимать стратегические решения и получать лучшие результаты.

Анализ больших данных незаменим, когда у вас горы информации и нужно отыскать в ней закономерности или неочевидные идеи, которые позволят сделать ценные выводы.

Для развития умных городов очень важны информационно-коммуникационные технологии (ИКТ): они обеспечивают доступ к данным, собранным с помощью информационных систем. Механизм, который будет особенно полезен умным городам, известен как интернет вещей (IoT). Он основан на взаимодействии между устройствами, которые обмениваются данными через интернет, беспроводные и другие сети.

Интернет вещей нужен умным городам, чтобы собирать и эффективно обрабатывать данные, которые затем можно применить в конкретной области. Городские датчики и другие подключенные к сети устройства получают данные из нескольких «перевалочных пунктов» и анализируют, чтобы упростить принятие решений.

А еще на жизнедеятельность городов очень повлияют облачные платформы и аналитические приложения. Они предлагают экономичные средства управления данными и решениями, связанными с работой транспорта. Это создает основу для построения более безопасных и полезных маршрутов на уже существующих дорогах.

Приложения машинного обучения принимают данные с подключенных устройств и в режиме реального времени передают их на смартфоны путешественников.

Три уровня данных

Первый уровень — технологическая основа, которая включает в себя критическую массу смартфонов и датчиков, подключенных к высокоскоростным каналам связи.

Второй уровень — особые приложения, которые превратят сырые данные в предупреждения, идеи и действия. Тут за дело берутся разработчики и поставщики технологии.

Третий уровень — использование городами, компаниями и населением. Многим приложениям для эффективной работы нужны массовое распространение и способность менять свое поведение.

Проблемы управления городом

Системные интеграторы города не могут собрать весь объем данных, который хранится по разрозненным базам и системам с ограничением прав доступа и использования.

В наших городах уже накоплены тонны информации, но большая ее часть используется для решения отдельных задач и не встроена в общую систему управления городом. К таким данным относятся официальная статистика, карты, сведения о публичных торгах и закупках.

Технологии способны произвести переворот по многим направлениям: сделать парковки удобнее, улучшить уличное освещение, оптимизировать транспортный поток, вывоз и сортировку мусора, задействовать умные системы безопасности, прогнозировать катастрофы. Но пока информация слишком фрагментарна. Нужно собрать все существующие стандарты на единой унифицированной платформе.

Будет ли город умным, зависит от способности организаций обмениваться данными и анализировать их. Только обмен ключевой информацией в реальном времени позволит компаниям частного и социального сектора разрабатывать приложения для автоматизации задач и софт для инфраструктуры умного города.

Проблема в том, что пока под каждый новый тип датчика зачастую нужна своя база данных, которую городу приходится закупать. Когда между сенсорами и БД нет эффективного и прозрачного взаимодействия, извлечь пользу из полученных данных практически невозможно.

Наконец, большое значение имеет цена решений: именно в финансирование упираются многие инициативы по развитию умных городов. Одно из главных препятствий, мешающих сдвинуть подобные проекты с места — первоначальные затраты на установку минимально необходимого числа датчиков, без которого нет смысла и начинать.

В реальных развивающихся городах действия не скоординированы, а данные до сих пор собираются вручную.

Улучшаем город с помощью данных

Проанализируем, как данные упрощают жизнь в городах мира.

В бывшей столице Китая, городе Нанкин, датчики установлены на 10 000 такси, 7 000 автобусов и на миллионе частных машин. Данные, которую удается собрать таким образом, ежедневно поступают в Информационный Центр Нанкина. Там эксперты централизованно отслеживают и анализируют сведения о транспортных потоках, а затем отправляют обновления на смартфоны (commuters). Это уже позволило властям города создать новые маршруты, которые улучшают транспортную ситуацию без строительства новых дорог.

Трениталия, главная железнодорожная компания Италии, установила датчики на поезда и теперь мгновенно узнает об изменениях в техническом состоянии каждого состава. Компании стало проще планировать ремонт поездов и действовать на опережение, предотвращая происшествия. Благодаря технологическим инновациям путешественники получили надежный и удобный сервис, а города избегают серьезных проблем.

В Лос-Анджелесе на протяжении 4,5 тысячи миль старое уличное освещение заменяют светодиодными лампами. Цель не только в том, чтобы стало светлее, но и в создании централизованной системы, которая будет информировать город о состоянии каждой лампочки. Когда одна из них перегорит, найти и заменить ее можно будет практически мгновенно. В будущем станет возможным, чтобы освещение меняло цвет или мигало для оповещения горожан.

Группы, объединяющие множество людей, генерируют тонны информации. Большие данные позволяют понять, когда, как и почему собираются толпы, а также предсказывать их поведение и перемещения.

Миллионы датчиков уже работают в крупных городах. В ближайшем будущем их число будет расти — до тех пор, пока они не охватят все: от уличных фонарей и урн до энергопотребления и дорожной ситуации.

Информационные вызовы

Чтобы эффективно управлять данными, недостаточно их собирать и хранить. Нужно передавать и объединять — делать их доступными департаментам, организациям или всему обществу.

В крупнейших городах США и других стран миллионы датчиков каждую миллисекунду, секунду, минуту, час и день создают невообразимый объем данных… Большая их часть никогда не используется.

Умные города должны строиться на сетях, в которых возможен свободный обмен информацией.

При развертывании умного города совместное пользование данными — это и обязательное требование, и ценная возможность. Ясно, что распределение данных между городскими департаментами и платформами — ключевой момент планирования.

Возьмусь сделать прогноз: большинство городов внедрят совместное пользование данными как промежуточный этап на пути от интеграции данных к информационному обмену, а затем и к магазинам данных.

Создание цифровой инфраструктуры

Лучший способ организовать совместное пользование данными — применять открытые API. Вместе с рынками данных — или наряду с ними — они упрощают обмен информацией и позволяют включать в экосистему новых партнеров. Вот почему API — важнейший элемент любой платформы для умного города.

Все чаще власти городов заказывают выпуск API, чтобы разработчики и общественные организации активнее пользовались открытыми данными.

Чтобы создать хорошую платформу умного города, нужно следующее:

ТехнологияНазначение

Сети	Собирают данные
Полевые шлюзы	Упрощают сбор и сжатие данных
Облачный шлюз	Гарантирует безопасную передачу данных
Система потоковой обработки данных	Сводит несколько потоков в озеро данных
Озеро данных	Хранит данные, ценность которых еще предстоит определить
Хранилище данных	Хранит очищенные и структурированные данные
Аналитические системы	Анализируют и визуализируют информацию с датчиков
Машинное обучение	Автоматизирует городские сервисы на основе долгосрочного анализа данных
Пользовательские приложения	Соединяют умные вещи и горожан

Идеальная платформа для обмена данными

Система совместного пользования данными должна обеспечивать обмен «в облаках». Это обеспечит лучшую переносимость, безопасность и конфиденциальность при передаче данных, а также ускорит разработку и тестирование приложений. Благодаря своей универсальности платформа обеспечит эти преимущества всем приложениям, в том числе специализированным. А значит весь городской софт будет опираться на актуальные технологии.

Платформа должна поддерживать два режима обмена данными: публичный и приватный. Если в отдельных приложениях данные будут смешиваться, особенно важно будет отслеживать, как они используются, обеспечивать надежную систему безопасности и управления.

Наконец, необходимо извлечь выводы из данных — привести их к виду, понятному для людей, которым предстоит эти данные дальше обрабатывать и использовать.

Большие данные — ключевой элемент в работе над системами городского масштаба, всеохватными по числу подключенных устройств. Технологии обработки больших данных сыграют ведущую роль в развитии умного градостроения будущего.

Пройти обучение

1 фев 19, 15:35

0 0

Основная статья: Большие данные

Аналитика Big Data: о новом факультете GeekUniversity